《量子国度》中的指数和遗忘
现在,我拥有了几年的数据和几个对照实验的结果,在过去的几个月里,我一直在想办法弄清楚《量子国度》中发生的事情。我想讨论一下我一路走来的发现,以及一些仍然困惑我的东西。
请注意:这是对《量子国度》数据的非正式讨论。该分析是初步的,不应该在其他工作中引用或摘录。我这里是在开门造车。
关于指数的更新
间隔重复记忆系统最重要且最令人惊讶的宣称是,它们能够让你投入的时间获得指数级的回报(在记忆稳定性方面)。请花点时间思考一下这有多不寻常!如果你每周投入 2 小时阅读或跑步,然后你将时间翻倍至每周 4 小时,你获得的好处往往不会翻倍。在我们日常的活动中,大部分时候,收益都会随着时间的增加而递减。但是,在很多情况下,似乎通过额外增加几分钟的间隔重复练习,你记住材料的时间可以延长一倍。
2019 年,Michael Nielsen 和我在《量子国度》公布了一些初步的研究成果,展示了这种指数增长,但现在我们有了更加确凿的证据,有了两年额外的数据和实验。这里我将主要讨论第一篇文章,因为它有最多的数据。
下面是一个成本效益分析的全局概览,汇总了大部分细节(去掉了一些可能会让图像过分缩小的离群值)。
说得通俗点,大多数读者只需练习半小时,就能记住文章里几乎所有 112 个问题的答案,而且这种记忆能保持至少 2 周;如果练习时间增加到 1 个小时,记忆保持时间能延长至少 5 周;1.5 小时的练习则可以使记忆保持至少 9 周。注意到了吗?随着练习时间的增加,记忆保持时间呈指数增长。
简单解释一下图表:每个点都代表了某个读者在完成一次复习后的数据记录。纵轴是他们记忆稳定性——他们能够成功回忆出 90% 以上问题的时间间隔——的总体评估。横轴是他们完成该次复习所花费的时间。图表中「突出显示」的点表示每次复习的中位数;虚线则是指数拟合曲线。
当然,数据有相当大的波动。很多波动实际上是调度器细节造成的,这里不做讨论。但我认为这并不影响总体结论。这里特别指出了第 25 和第 75 百分位的数据。对于表现最好的四分之一群体来说,1 小时的复习就能保持 3 个月的记忆。而最慢的四分之一群体虽然增长较慢,但经过 1.5 小时的复习后,也能达到 1 个月的记忆保持时间,这还不到最初阅读时间的一半。
有趣的是,每次复习中,练习时间和记忆保持之间存在负相关性。换句话说,那些学得较慢的读者往往记得不那么牢固。这就是我们在将来优化学习调度时,可以利用的众多参考因素之一。
以展示的记忆保持作为衡量指标的问题
这种表征方式最大的问题是,我们实际上看到的是读者对某个问题真实记忆保持的一个近似下限。我们真正想知道的是,读者等待的最大时间间隔是多少,同时还能有(比如说)90% 的几率记得。我将其称为「稳定记忆保持间隔」。但我们无法直接测量它。作为替代,我们通过查看第 6 次复习的时间和结果来测量他们 5 次复习后的记忆保持。这种测量方法与我们的调度策略相互耦合。
在很多情况下,如果将第 6 次复习安排得更晚,读者可能仍旧能记得,这会导致显示出更高的展示记忆保持值。另一方面,如果某位读者在 40 天后忘记了,他们可能在 30 天后就能记住…但我们当时没有安排复习,因此我们只能报告最后一次尝试成功的时间间隔(例如 20 天)。这样情况下,我们就少报了。
因为这个抽样的局限性,我们在图表上看到的明显的指数曲线主要是我们调度器设计的结果,这个调度器本身是指数式的(根据是否成功,调整间隔时间翻倍或减半)。实际上,经过五次复习后的稳定记忆保持间隔可能要长得多;如果我们能够直接测量,那么曲线将更加夸张。但正如我们后面会提到的,最初几次复习的真正间隔时间在大多数情况下确实要长得多;如果我们能直接测量它们,这个指数曲线可能就会显得更加平缓。
到目前为止,通过将读者展示的记忆保持定义为 90% 以上的问题所达到的间隔,我所展示的图表汇总了文章中的所有问题。但如果我们深入到一个更细致的层面,就能看到很多有趣的细节。
按读者划分
例如,图表中靠近底部的读者实际上表现得比看起来要好。他们能够记住绝大多数问题,并且跨越很长的时间间隔——只是少数落后的问题没有被记住。
这里是第 10 百分位用户按问题划分的展示记忆保持分布。
绝大多数的问题都被记住了 4 个月或更久。只有少数几个问题他们难以跨过 1 个月。再经过一次复习,其中很大一部分将继续向上移动;这是同一个用户下一次复习的情况:
按问题划分
这些「落后问题」在不同读者中有一定的普遍性。仅仅 5 个问题就构成了超过四分之一的情况,其中一个读者在 5 轮复习后,对某些问题的展示记忆保持不足 1 个月。13 个问题占了这些情况的半数。除此之外,剩下的 99 个问题分布较为分散。
这个趋势在下面的图表中表现得更为明显,展示了 5 轮复习后,每个问题的记忆保持时间。这里的每一「栏」都是针对一个问题的箱形图,每个读者都是其中的一个数据点。
约有四分之三的问题,其第 25 百分位数的记忆保持时间超过 4 个月,其余大部分问题也都稳稳保持在 2 个月以上——这实在是太棒了!尽管分散度较大暗示我们还有进一步优化调度的空间。但底部的那些问题似乎显然需要额外的辅助。这些底部问题大多是困难的死记硬背题:「X/Y/Z/Hadamard 门的矩阵表示是什么?」,「匕首操作有哪三个常见称呼?」,「谁在使用量子计算机模拟量子场理论方面取得了进展?」。在这些问题中,有一个更具概念性的问题格外引人注目:「存在哪些电路示例,其中 CNOT 门的目标状态输入不变,但控制状态却发生了变化?」另外还有一些问题聚焦于狄拉克记号和矩阵的幺正性等关键细节。
这种分析方式可以为我们指出问题所在,但这些棘手的问题到底是怎么回事还不清楚。为此,我们需要深入遗忘的动态过程。
反事实:不练习就会忘
为了使助记媒介真正具有变革性,(至少)需要以下四点成立:
-
记忆:如果你按照建议练习,几乎可以长期记住所有内容。
-
成本:不需要花费太多的时间。
-
反事实:如果你不练习,你就会忘记。
-
迁移:这种持久的记忆能够转化为实际的理解和能力,应用于人造练习场景之外。
前面的部分简要介绍了前两点的现状。我必须坦白,目前对于知识迁移的效果,我还没有太多的信息[1]。但在过去几个月中,我对反事实的第三点有了更深入的了解。
你在这一节看到的大部分数据来自我在 2021 年进行的一个实验,该实验随机为新读者分配不同的复习计划。例如,第 1 次复习的间隔时间不同,包括 1 周、2 周、1 个月和 2 个月。这种差异应该能让我们看到如果不复习会发生什么。
但正如我以前讨论过的,情况并不那么明了。这里是所有问题和读者的平均记忆率:
真的吗?1 周和 2 个月之间只有 13 个百分点的差距?这很难让人相信!我在之前的文章中讨论了许多解释和分析,但在这个问题上又花了一百多个小时后,我认为最重要的一点是:许多问题很简单;许多读者非常熟练;因此,你需要更仔细地观察,才能看到明显的遗忘曲线。
现在根据这些数据,我的总体印象是:如果不进行练习,你很可能会忘记「较难」问题的答案;如果你觉得材料很难,你也会忘记许多其他卡片。但是,对于「简单」的问题,即使没有太多支持,你可能也会记住答案一两个月。
补课环节
我们在所谓的「补课」环节中见到了一个相当明显的遗忘曲线。在最新的复习策略中,如果你在读文章时忘了某张卡片,我们会在第 2 天提醒你再复习一遍——为了额外加强而进行的「补课」。如果你在那次复习时还记得卡片,我们将为你安排第 1 个更长的间隔。(也就是说,上文提到的遗忘曲线中的样本,是指在这些补课环节之后的第 1 次复习——即在读者展示他们能记住一天之后。)
但人们并不总能在指定的时间进行复习。邮件可能会放置几天未看。所以,通过查看实际复习时的回忆率,我们可以观察到有多少遗忘发生了。
红线代表了我们讨论中的那些读者的遗忘曲线,他们在 1 天后被安排了一个「补课」环节。而蓝线则表示了一组使用早期策略的用户,这个旧策略最初是在 5 天后才安排复习遗忘的卡片。因此,3 周时间里,回忆率从大约 85% 降到了大约 55%。
蓝线还解决了我对进行此类分析时的一个担忧:选择偏见。比如,是不是那些「迟到」的学生不太自觉,不太认真,记忆力不太强呢?但红线和蓝线之间的紧密吻合说明,实际上这种差异并不明显:迟到的读者与勤勉的读者表现大致相同;间隔时间起决定作用。
此外,这些一开始就被忘记的卡片,在下一个安排间隔较长的复习中,其遗忘曲线要陡得多。这个间隔在不同的实验组中有所变化。
大多数读者在阅读文章时都会忘记十几张卡片。至少对于这些卡片,反事实情况似乎很明确:如果不进行多轮练习,你在随后的几周内很可能会忘记。
此外,还有一个复合效应使得从遗忘中恢复变得更加困难。如果你在第 1 次复习时忘记了卡片,你会像在文章中忘记时一样,在 1 天后被安排一个「补课」环节。如果读者在较长的间隔后忘记,他们在这些补课环节中的表现会更差。当最初的间隔为 2 个月时,读者在第 1 次复习和之后的补课环节中都会有 16% 比例遗忘,而在 1 周的条件下,读者只有 2% 的比例遗忘。
按问题划分
「困难」卡片的遗忘曲线更为陡峭。这里的「困难」是指「在文章中回忆率较低」。这与第一次复习时的回忆率有中等程度的相关性(r=0.65)——实际上比通过基于项目反应理论的模型拟合的难度参数更能准确预测。
接下来展示的是,按卡片难度四分位进行划分后,第 1 次复习的遗忘曲线。图中最上方的线表示「最容易」的卡片,最下方的线表示「最难」的卡片(即,在文章中回忆率最高和最低的)。
因此,如果不复习,你很可能在两个月后忘记「困难」卡片,而在中等难度的卡片上的表现将下降到 C 级。最简单的卡片可能还好!
通过下图,我们可以更清晰地看到难度带来的影响,它展示了不同初始间隔下,各个问题(难度从低到高排列)的回忆率。图中的垂直网格线表示问题的十分位点。
对最简单的大约三分之一的卡片来说,差距不大,但是差距会随着卡片难度增加而扩大,直到最难的十分之一的卡片后再次开始缩小。(此外,我们注意到两个月间隔的样本更少——这是另一个值得关注的现象,但我暂时不展开讨论。)
自然,下一个分析角度可能是按读者四分位来划分,但我们没有足够的样本做这样的分析。但是,我们可以通过观察以下两点来较好地理解这种效应:a) 在文章阅读期间更容易忘记卡片的读者将会忘记更多的卡片;b) 如前一节讨论的,文章阅读时遗忘的卡片有着陡峭的遗忘曲线。
练习的价值
在这个实验中,第 1 次复习间隔为 1 周的读者下一次复习的间隔是 3 周。这允许我们估算这样一个情况:设想你 1 个月后需要某些知识。如果你在 1 周后复习这些材料,然后再等待 3 周(总共约 1 个月),相比那些在这个月里完全没复习的人,你的表现会如何?
遗憾的是,我并没有设定这个实验来做一个完全公平的比较:如果读者在第 7 天忘记了一张卡片,他们在会当天再次复习,然后再隔 21 天复习。因此,这些卡片得到了一些额外的练习机会。并且,在这里坚持进行第 2 次复习的读者群体中,也可能有显著的选择效应。我试图在本文中分享的其他比较中控制这个因素,但在这里我没有足够的数据来这样做。
尽管如此,一个明确的结论是:更多的练习可能比间隔差异带来更大的区别。首先,和我们已经讨论的一些显著例外一样,间隔似乎并不那么重要。重复才是关键。
我们必须从成本与效益的角度考虑重复练习。拿上面图表里「最简单」的四分之一卡片来说,多一轮复习似乎影响不大:只是将回忆率从 95% 提高到 100% 而已!这个成本可能超过了收益。对于接下来的一部分问题,情况可能也相同。但当然,我们不应过分依赖这种观点。仅凭回忆率并不能完全反映情况。额外的复习很可能在这里没有体现出来的微小方面加深了理解。更细微地,它加强了与学习材料的情感联系。我认为,这种联系的减弱是初始复习间隔为两个月的读者坚持下来得更少的部分原因。
理想情况下,我们希望能够比较策略 A 和策略 B,绘制出一个有效边界。如果我愿意投入 X 分钟时间,我能得到的最佳表现是什么?或者,如果我想要达到某个特定的稳定记忆保持间隔,成本最低的策略是什么?
当然,有许多关于这个主题的论文,但都涉及构建遗忘曲线的预测模型,而我一直在特立独行地避免这样做,专注于数据中直观可见的模式。但我并未成功。如果我想深入探讨这个成本/效益问题,我预计需要构建一些模型。
没有文中卡片情况下的遗忘
到目前为止,我们已经讨论了反事实:如果你今天阅读了《量子国度》,并在一段时间内不进行复习,会发生什么情况。但同样值得一问的是:如果你只阅读《量子国度》的文本——没有任何嵌入的卡片,也没有练习,会发生什么?
我们在 2020 年进行了一个实验,可以(粗略地)将其与上述实验数据结合起来进行估算。在这项实验中,我们在某些读者的文章中隐藏了 9 张卡片,然后在 1 个月后的复习环节中悄悄重新插入这些卡片。
值得高兴的是,这些实验问题涵盖了我们之前讨论过的「卡片难度」的 4 个四分位数。我已经没有精力做更多的图表了,所以我只比较了「最简单」和「最难」的这两张卡片,以展示结果的范围。它们分别是「|ψ> 是...的一个例子?」和「如何用狄拉克极好和单位向量 |e_j> 表示矩阵 M 的第 jk 个元素?」。
-
「困难」的卡片需要额外支持,才能在 1 个月后可靠地回忆起来:
-
没有文章内的卡片或练习,1 个月后:42%
-
有文章内的练习和补课环节,1 个月后:71%
-
有文章内的练习和补课环节,在 1 周后练习(可能还有补课环节),再过 3 周后:90%
-
-
「简单」的卡片所需的支持较少:
-
没有文章内的卡片或练习,1 个月后:89%
-
有文章内的练习和补课环节,1 个月后:91%
-
有文章内的练习和补课环节,在 1 周后练习(可能还有补课环节),再过 3 周后:100%
-
但情况也因读者而异。
-
对于文章内回忆率处于最低四分之一的读者:
-
「困难」卡片的数据分别为:23%;62%;75%
-
「简单」卡片的数据分别为:79%;93%;100%
-
-
对于文章内回忆率处于最高四分之一的读者:
-
「困难」卡片的数据分别为:56%;67%;100%
-
「简单」卡片的数据分别为:97%;87% (?);100%
-
这些数据使得反事实的说法显得更加明显。在没有任何支持的情况下,难以掌握的细节很可能会被遗忘。对于那些在材料上遇到困难的读者,即使是「简单」的卡片,也至少需要文章内的练习才能保持可靠的记忆。
————————
感谢 Gary Bernhardt、Michael Nielsen和Giacomo Randozzo对这些议题的有益讨论。
[1] 当然,关于这个问题之前有很多实验,大多是在实验室环境下进行的;例如,见 [Butler (2010)](http://andymatuschak.org/files/Butler - 2010 - Repeated Testing Produces Superior Transfer of Learning Relative to Repeated.pdf) 的综述。